加密流量检测有什么难点
加密流量检测的难点:
特征信息不足
流量全加密时代的来临导致明文信息不足,载荷不能作为识别加密流量的特征,包长序列、包到达时间等特征也不足以区分不同的加密流量,可用特征维度显著减少,高辨别力特征更加稀有,所以维持和提升加密流量识别性能的瓶颈是分类特征的信息量不足,而非识别算法。我们需要挖掘隐藏的特征属性、增加分类特征,进而给识别任务带来增量信息。
概念漂移问题
随着网络安全攻防对抗的愈演愈烈,识别目标会不断迭代、优化、升级、甚至发生改变,加密流量的特征也会随之发生变化,这些概念漂移问题使得之前训练好的模型的准确率等性能可能会逐渐下降。可能的解决思路是对模型的结构进行调整以适应概念漂移,比如加深层、加宽层、根据数据分布变化复合新旧模型等。
标注样本缺乏
传统的机器学习方法依赖于大量标注好的样本,不仅需要大量人力导致标注成本极高,也可能有侵犯用户隐私的风险,而且新的识别目标在出现早期都是小样本或者零样本的,不再适应这种新场景下的机器学习要求。我们需要研究如何减少对标注数据的需求,可以考虑小样本学习、主动学习、半监督学习、无监督学习等方法。
开集识别问题
目前有各种算法应用于加密流量的识别,有监督机器学习、无监督机器学习、半监督机器学习、强化学习、自学习等,其中最主要的研究和应用还是聚集在有监督机器学习。以应用识别为例,现实中应用数量是在百万级以上的,目前大部分 AI 的理论基础是将所有应用的数据都输入给模型进行训练,才能获得一个可用的识别模型,然而这是不现实的。因此对于开放环境中未知样本的识别,研究如何降低对先验知识的依赖以及如何提升识别模型的鲁棒性与泛化性是非常必要的。
推理性能待提升
从公司层面来讲,AI 模型的推理过程非常消耗计算资源,虽然有很多优化和加速的方法,但是相比传统的规则匹配等技术,AI 的推理性能还是存在数量级上的差异。因此在工程实现上需要保证模型的可用性,能够得到稳定及时的计算结果,进而应对高速网络环境下加密流量实时识别的挑战,想办法提升推理性能是非常必要的。